Scholar Hub/Chủ đề/#mạng nơron tích chập/
Mạng nơron tích chập (Convolutional Neural Network - CNN) là một kiểu mạng nơron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc lưới như ảnh, âm t...
Mạng nơron tích chập (Convolutional Neural Network - CNN) là một kiểu mạng nơron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc lưới như ảnh, âm thanh.
CNN được gọi là "tích chập" bởi vì nó sử dụng phép tích chập để trích xuất các đặc trưng quan trọng từ dữ liệu đầu vào. Quá trình này tương tự như việc sử dụng bộ lọc (filter) để nhận diện các đặc trưng khác nhau trong ảnh.
CNN được cấu thành bởi các tầng chính, bao gồm:
1. Tầng đầu vào (Input Layer): Nhận dữ liệu đầu vào (ví dụ: ảnh) và truyền qua tầng tiếp theo.
2. Tầng tích chập (Convolution Layer): Áp dụng phép tích chập để trích xuất các đặc trưng từ dữ liệu đầu vào.
3. Tầng gộp (Pooling Layer): Giảm kích thước của đầu ra từ tầng tích chập bằng cách chọn giá trị lớn nhất hoặc trung bình của các vùng dữ liệu.
4. Tầng kết nối đầy đủ (Fully Connected Layer): Nhận các đặc trưng đã được trích xuất từ các tầng trước đó và thực hiện phân loại.
5. Tầng đầu ra (Output Layer): Trả về kết quả phân loại.
CNN đã được chứng minh là rất hiệu quả trong nhiều nhiệm vụ như nhận dạng ảnh, phân loại văn bản, nhận diện giọng nói, và có ứng dụng rộng rãi trong ngành công nghệ thông tin và trí tuệ nhân tạo.
Để hiểu chi tiết hơn về mạng nơron tích chập, hãy xem xét cấu trúc và hoạt động của nó:
1. Tầng đầu vào (Input Layer):
- Nhận dữ liệu đầu vào, ví dụ: ảnh kích thước N x N pixels.
- Dữ liệu từ ảnh có thể được biểu diễn dưới dạng ma trận 2 chiều (N x N) hoặc ma trận 3 chiều (N x N x 3) nếu ảnh là ảnh màu.
2. Tầng tích chập (Convolution Layer):
- Gồm một số bộ lọc (filter) được áp dụng lên dữ liệu đầu vào.
- Mỗi bộ lọc có kích thước nhỏ hơn hoặc bằng kích thước đầu vào và thực hiện phép tích chập trên dữ liệu.
- Quá trình tích chập sẽ tính toán tổng trọng số của các pixel trong vùng tương ứng và tạo ra đầu ra là một ma trận đã được lọc.
- Phép tích chập giúp trích xuất các đặc trưng quan trọng như cạnh, gốc, vùng tối sáng,...
3. Tầng gộp (Pooling Layer):
- Mục đích của tầng này là giảm kích thước không gian của dữ liệu để giảm độ phức tạp tính toán và số lượng tham số.
- Có các phép gộp thông thường như phép gộp cực đại (max pooling) hoặc phép gộp trung bình (average pooling).
- Tầng gộp giữ lại các đặc trưng quan trọng nhất trong vùng quét và loại bỏ thông tin không quan trọng.
4. Tầng kết nối đầy đủ (Fully Connected Layer):
- Tập hợp các đặc trưng đã được trích xuất từ tầng trước đó và đưa vào một hoặc nhiều tầng kết nối đầy đủ.
- Các tầng này chứa các nơron được kết nối hoàn toàn với tầng trước.
- Hàm kích hoạt (ví dụ: ReLU) được áp dụng cho đầu ra của từng nơron trong tầng này.
5. Tầng đầu ra (Output Layer):
- Đưa ra dự đoán cho tác vụ phân loại hoặc dự báo.
- Phụ thuộc vào nhiệm vụ cụ thể, hàm kích hoạt cuối cùng có thể là softmax (cho phân loại) hoặc tuyến tính (cho dự báo).
Qua các tầng trên, mạng nơron tích chập học cách trích xuất và hiểu thông tin quan trọng từ dữ liệu đầu vào. Điều này cho phép nó tìm hiểu các đặc trưng tương tự trong các vùng không gian khác nhau của ảnh hoặc dữ liệu và sử dụng các đặc trưng này để phân loại hoặc dự báo.
MÔ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾNHệ thống quản lý học tập trực tuyến (LMS) đang được phát triển mạnh, góp phần nâng cao chất lượng đào tạo. Tuy nhiên, việc tăng cường giám sát và hỗ trợ người học, theo dõi và quản lý học tập dựa trên các công nghệ hiện đại chưa được nghiên cứu sâu rộng. Đặc biệt là ứng dụng của công nghệ nhận dạng khuôn mặt và biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học được tự động hoá cao độ và hỗ trợ kịp thời. Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu này đề xuất một mô hình MTCNN nhằm thực hiện hai nhiệm vụ là nhận dạng khuôn mặt và nhận dạng biểu cảm khuôn mặt. Mô hình được thử nghiệm trên các tập dữ liệu công bố gồm CK+, OuluCASIA và dữ liệu người học được thu thập cho kết quả khả quan khi so sánh với một số kiến trúc hiện đại trong khi kích thước mô hình đơn giản hơn. Chúng tôi cũng thiết kế tích hợp mô hình được đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính năng giám sát và theo dõi quá trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy và học nhằm nâng cao chất lượng đào tạo.
#Mạng nơron tích chập đa nhiệm #nhận dạng khuôn mặt #nhận dạng biểu cảm khuôn mặt #hệ thống quản lý học tập trực tuyến
Chỉ Tiền Xoay Tại Giai Đoạn Suy Diễn: Một Phương Pháp Để Đạt Được Tính Bất Biến Với Sự Xoay Của Mạng Nơron Tích Chập Dịch bởi AI International Journal of Computational Intelligence Systems - Tập 17 Số 1
Tóm tắtCác mạng nơron tích chập (CNN) phổ biến cần phải tăng cường dữ liệu để đạt được tính bất biến với sự xoay. Chúng tôi đề xuất một cơ chế thay thế, Chỉ Tiền Xoay Tại Giai Đoạn Suy Diễn (PROAI), để làm cho CNN bất biến với sự xoay. Ý tưởng tổng quát là học cách mà não người quan sát hình ảnh. Tại giai đoạn huấn luyện, PROAI huấn luyện một CNN với một số lượng nhỏ bằng cách chỉ sử dụng hình ảnh ở một cách định hướng. Tại giai đoạn suy diễn, PROAI giới thiệu một phép biến đổi tiền xoay để xoay mỗi hình ảnh kiểm tra vào tất cả các định hướng có thể và tính toán điểm phân loại sử dụng CNN đã huấn luyện với số lượng tham số nhỏ. Giá trị cao nhất trong những điểm phân loại này có khả năng tự ước lượng cả thể loại và định hướng của mỗi hình ảnh kiểm tra. Những lợi ích cụ thể của PROAI đã được thử nghiệm trên các nhiệm vụ nhận dạng hình ảnh đã xoay. Kết quả cho thấy PROAI cải thiện cả hiệu suất phân loại và ước lượng định hướng trong khi giảm đáng kể số lượng tham số và thời gian huấn luyện. Mã nguồn và tập dữ liệu có sẵn công khai tại https://github.com/automlresearch/FRPRF.
PHƯƠNG PHÁP ƯỚC LƯỢNG GÓC NHÌN DỰA TRÊN ĐIỂM 3D ĐẶC TRƯNG KHUÔN MẶT VÀ ỨNG DỤNG GIÁM SÁT THI TRỰC TUYẾN Ước lượng góc nhìn khuôn mặt (HPE) là một bài toán phức tạp đòi hỏi sự kết hợp giữa xử lý hình ảnh, thị giác máy tính và kỹ thuật học máy với các phương pháp hiện nay dựa trên mạng nơron tích chập (CNN) để xác định ánh xạ giữa không gian ảnh 2D và mô hình 3D khuôn mặt và xác định các góc nhìn. HPE được ứng dụng trong nhiều vấn đề thực tiễn và có ý nghĩa cao như các giám sát an ninh, phát hiện sự tập trung của lái xe, giám sát người học và thi trực tuyến,... Nghiên cứu này sử dụng mô hình CNN hiện đại để phát hiện các điểm đặc trưng khuôn mặt và đề xuất một phương pháp ước lượng góc nhìn khuôn mặt sử dụng thuật toán rừng ngẫu nhiên dựa trên các điểm đặc trưng 3D của khuôn mặt từ ảnh 2D để xác định góc nhìn của khuôn mặt trên ảnh đó. Kết quả thử nghiệm của phương pháp đề xuất trên bốn tập dữ liệu phổ biến đạt chất lượng tốt, cho sai số thấp nhất ở hai trong số 4 tập dữ khi so sánh các phương pháp. Chúng tôi đưa ra một thiết kế tích hợp giữa phương pháp đề xuất với hệ thống quản lý học tập trực tuyến nhằm hỗ trợ giám sát và đánh giá sự tập trung tham gia học tập và làm bài thi của người học.
#Giám sát thi trực tuyến #thị giác máy tính #mạng nơron tích chập #hồi quy rừng ngẫu nhiên
MÔ HÌNH MẠNG NƠRON TÍCH CHẬP ĐA NHIỆM NHẬN DẠNG KHUÔN MẶT VÀ BIỂU CẢM CHO ỨNG DỤNG HỖ TRỢ GIÁM SÁT HỌC TRỰC TUYẾNHệ thống quản lý học tập trực tuyến (LMS) đang được phát triển mạnh, góp phần nâng cao chất lượng đào tạo. Tuy nhiên, việc tăng cường giám sát và hỗ trợ người học, theo dõi và quản lý học tập dựa trên các công nghệ hiện đại chưa được nghiên cứu sâu rộng. Đặc biệt là ứng dụng của công nghệ nhận dạng khuôn mặt và biểu cảm khuôn mặt giúp cho việc theo dõi, giám sát người học được tự động hoá cao độ và hỗ trợ kịp thời. Bằng việc ứng dụng công nghệ mạng nơron tích chập đa nhiệm (MTCNN), nghiên cứu này đề xuất một mô hình MTCNN nhằm thực hiện hai nhiệm vụ là nhận dạng khuôn mặt và nhận dạng biểu cảm khuôn mặt. Mô hình được thử nghiệm trên các tập dữ liệu công bố gồm CK+, OuluCASIA và dữ liệu người học được thu thập cho kết quả khả quan khi so sánh với một số kiến trúc hiện đại trong khi kích thước mô hình đơn giản hơn. Chúng tôi cũng thiết kế tích hợp mô hình được đề xuất với hệ thống quản lý học tập trực tuyến (LMS) theo hướng kết nối mở để gia tăng thêm tính năng giám sát và theo dõi quá trình học tập, chủ động cảnh báo cho giáo viên, người học biết để điều chỉnh hoạt động dạy và học nhằm nâng cao chất lượng đào tạo.
#Mạng nơron tích chập đa nhiệm #nhận dạng khuôn mặt #nhận dạng biểu cảm khuôn mặt #hệ thống quản lý học tập trực tuyến
TÌM KIẾM ẢNH SỬ DỤNG MẠNG NƠRON TÍCH CHẬP VÀ ĐỒ THỊ PHÂN CỤM Trong bài báo này, một mô hình tìm kiếm ảnh dựa trên mạng nơron tích chập kết hợp cấu trúc đồ thị cụm được thực hiện nhằm nâng cao hiệu suất và giảm thời gian truy vấn ảnh. Để thực hiện bài toán này: (1) mạng Noron tích chập được sử dụng để xác định và phân loại các đối tượng trên ảnh; (2) cấu trúc đồ thị cụm được xây dựng để thực hiện xây dựng ontology; (3) tập ảnh tương tự được trích xuất dựa trên ontology sau thực hiện khi tìm kiếm bằng câu truy vấn SPARQL. Với mỗi ảnh đầu vào, sau khi phân loại từng đối tượng bằng mạng Noron tích chập; trích xuất vector đặc trưng; phân lớp ảnh và thực hiện truy vấn ontology để trích xuất tập ảnh tương tự. Trên cơ sở lý thuyết đề xuất, một mô hình truy vấn ảnh được đề xuất và thực nghiệm trên bộ ảnh COCO, Flickr với độ chính xác tương ứng lần lượt là 0.7950, 0.8116. Theo kết quả thực nghiệm, phương pháp đề xuất của chúng tôi được đánh giá là đúng đắn và so sánh với các công trình khác trên cùng bộ ảnh nhằm đánh giá tính hiệu quả của mô hình đề xuất; đồng thời áp dụng được cho các bộ dữ liệu khác nhau.
Xác minh chữ ký dựa trên kỹ thuật học sâuXác minh chữ ký viết tay có vai trò rất quan trọng trong việc bảo mật và xác định danh tính của người dùng khi liên quan đến các hoạt động hành chính, công ty hay ngân hàng. Sau giai đoạn đầu với những phương pháp xác minh chữ ký theo cách tiếp cận truyền thống, gần đây một số giải thuật dựa trên học sâu đã cho thấy nhiều kết quả hứa hẹn đối với bài toán này. Tuy nhiên, vẫn có ít nghiên cứu nhằm tổng hợp và so sánh các mô hình học sâu để từ đó có thể giúp cải thiện xác minh chữ ký một cách hiệu quả hơn. Bài báo này sẽ xây dựng và so sánh các mô hình học sâu gần đây – thông qua nhiều kiến trúc khác nhau – đối với bài toán xác minh chữ ký. Kết quả cho thấy, việc tách biệt quá trình học thuộc tính của ảnh chữ ký với bộ phân loại mang lại hiệu quả xác minh cao nhất. Ngoài ra, bài báo còn đề xuất sử dụng bộ phân loại mới – XgBoost – nhằm cải thiện kết quả xác minh so với phương pháp trước đây.
#Xác minh chữ ký #học sâu #mạng nơron tích chập #mạng Capsule #mạng Transformer
GIÂI PHÁP NHẬN DẠNG KÝ TỰ TIẾNG TRUNG VIẾT TAY DỰA TRÊN MẠNG NƠRON TÍCH CHẬPGần đây, bài toán nhận dạng ký tự viết tay trở nên phổ biến hơn bởi những ứng dụng đa dạng của nó. So với bài toán nhận dạng các chữ số và chữ cái tiếng Anh viết tay, việc nhận dạng các ký tựtiếng Trung viết tay là một bài toán khó khăn hơn bởi nhiều lý do. Để giải quyết được vấn đề này, bài báo trình bày một giải pháp nhận dạng ký tự tiếng Trung viết tay dựa trên kiến trúc mạng nơrontích chập nổi tiếng LeNet-5. Kết quả thử nghiệm trên tập dữ liệu viết tay CASIA minh họa khả năng dự đoán chính xác ký tự tiếng Trung viết tay trong khoảng thời gian dưới 0,1 giây.
#Handwritten character recognition; handwritten chinese character recognition; neural networks; convolutional neural network.
MÔ HÌNH MẠNG NƠRON TÍCH CHẬP THỂ NHẸ DỰA TRÊN KIẾN TRÚC DENSENET CHO NHẬN DẠNG BIỂU CẢM KHUÔN MẶT VÀ ỨNG DỤNG HỖ TRỢ ĐÁNH GIÁ QUÁ TRÌNH HỌC TẬP TRỰC TUYẾNMạng nơ-ron tích chập (CNN) được áp dụng cho nhận dạng cảm xúc trên khuôn mặt đang được quan tâm nghiên cứu của nhiều tác giả với những kết quả rất khả quan và có các ứng dụng thành công. Các mô hình CNN hiện đại được thiết kế với các kiến trúc đa dạng như VGG, ResNet, Xception, EfficientNet, DenseNet và các biến thể của chúng được áp dụng rộng rãi cho các bài toán nhận dạng hình ảnh, trong đó có nhận dạng biểu cảm khuôn mặt. Tuy nhiên, các mô hình này có độ phức tạp khá lớn đối với một số ứng dụng trong thực tế hạn chế về tài nguyên tính toán. Bài báo này đề xuất một mô hình CNN thể nhẹ dựa trên kiến trúc kết nối dày đặc của mô hình DenseNet với độ phức tạp vừa phải nhưng vẫn đảm bảo chất lượng và hiệu quả cho nhận dạng cảm xúc trên khuôn mặt. Chúng tôi cũng thiết kế tích hợp mô hình này với hệ thống LMS nhằm hỗ trợ ghi nhận và đánh giá quá trình học tập trực tuyến của người học. Mô hình đề xuất được thử nghiệm để đánh giá trên một số bộ dữ liệu phổ biến, kết quả cho thấy mô hình đem lại hiệu quả và có thể được sử dụng trong thực tế.
#Mạng nơron tích chập #kiến trúc mạng DenseNet #nhận dạng biểu cảm khuôn mặt #hệ thống quản lý học tập trực tuyến